﻿ Curs 11 Tehnici ule în realizarea proiectului Deﬁniția ontologiei • O ontologie este un set de termeni referitori la un domeniu de interes, asociați cu deﬁniții într-o limbă naturală (de exemplu, engleza), și care au relații formale și constrângeri ce sunt ulizate de oameni în munca lor și, eventual, de programe de calculator Aprox din: Ed Hovy (1998) Combining and Standardizing Large-Scale, Praccal Ontologies for Machine Translaon and Other Uses LREC, Granada Extragerea de ontologii din texte Determinarea relației de hyponimie The bow lute, such as the Bambara ndang, is plucked and has an individual curved neck for each string Lăuta cu arc, precum Bambara ndang, este înnsă și are un gât curbat individual pentru ﬁecare strună Din: M Hearst (1992) Automac Acquision of Hyponyms from Large Text Corpora, ACL Paernuri lexicale NP0 such as {NP1, NP2 (and | or)} NPn implică for all NPi 1 hyponym("author", "Herrick") hyponym("author", "Goldsmith") hyponym("author", "Shakespeare") Paernuri lexicale NP {, NP} * {,} or other NP Bruises, wounds, broken bones or other injuries => hyponym("bruise", "injury") hyponym ("wound", "injury “) hyponym("broken bone", "injury") Paernuri lexicale NP {, NP}* {,} and other NP temples, treasuries, and other important civic buildings => hyponym("temple", "civic building") hyponym("treasury ", "civic building") Paernuri lexicale NP {,} including {NP {,}} * {or | and} NP All common-law countries, including Canada and England => hyponym("Canada", "common-law country") hyponym ("England", "common-law country") Paernuri lexicale NP {,} especially {NP ,}* {or] and} NP most European countries, especially France, England, and Spain => hyponym("France", "European country") hyponym("England", "European country") hyponym("Spain", "European country") Cum se pot găsi noi paernuri? 1 Decideți asupra unei relații lexicale, R, care este de interes, de exemplu, "grup - membru" 2 Colectați o listă de termeni pentru care această relație este cunoscută, de exemplu, "Anglia - țară" – Lista poate ﬁ găsită automat prin bootstrapping pornind de la paernuri găsite manual sau prin bootstrapping de la un lexic sau o bază de cunoșnțe existente 3 Găsiți apariții în corpus în care aceste expresii apar sintacc una lângă cealaltă și înregistrați aceste contexte 4 Găsiți părțile comune ale acestor contexte și ipotezați că acestea formează pare care indică relația de interes 5 Odată ce un paern nou a fost idenﬁcat, ulizați-l pentru a aduna mai multe exemple ale relației țintă și connuați cu Pasul 2 Cum se pot găsi noi paernuri? 1 Antrenare: (a) Exportați exemple din toate perechile de hipernime (perechi de cuvinte aﬂate într-o relație hipernimie / hiponimie) din WordNet (b) Pentru ﬁecare pereche hipernimică, găsiți fraze în care apar ambele cuvinte (c) Parsați frazele și extrageți automat paernuri din arborele de parsare, care reprezintă indicii bune pentru relația hipernimică (d) Instruiți un clasiﬁcator hipernimic bazat pe aceste caracterisci 2 Test: (a) Fiind dată o pereche de cuvinte din setul de testare, extrageți caracteriscile și ulizați clasiﬁcatorul pentru a decide dacă perechea de cuvinte se aﬂă în relația hipernim / hiponim sau nu Din: Snow, Juravsky and Ng (2004) Learning syntacc paerns for automac hypernym discovery, in NIPS Paernuri lexico-sintacce Toate căile minime, de lungime ≤ 4, între oricare două substanve dintr-un arbore de dependență “ such authors as Herrick and Shakespeare” Trăsăturile sunt reprezentate ca triplete: (word1, CATEGORY1:RELATION:CATEGORY2, word2) unde word1 și word2 sunt rădăcini de cuvinte Generalizarea paernurilor: notația dependențelor exnse • Reține cea mai scurtă cale: authors – Herrick • Adaugă sateliți: authors – such • Distribuie legăturile de dependență în jurul elementelor conjuncționate Paernuri trasee REL12 REL23 word1 word2 word3 CAT1 CAT2 CAT3 (word1, CAT1:REL12:CAT2, word2) (word2, CAT2:REL23:CAT3, word3) (word1, CAT1:REL12:CAT2, word2) (word2, CAT2:REL23:CAT3, word3) CAT1:REL12:CAT2, word2 , word2, CAT2:REL23:CAT3 Representările paernurilor lui Hearst ca trasee de dependență word1, CATEGORY1:RELATION:CATEGORY2, word2) • NP and other NP : (and,U:PUNC:N),-N:CONJ:N, XY (other,A:MOD:N) • NP or other NP : (or,U:PUNC:N),-N:CONJ:N, XY (other,A:MOD:N) • NP such as NP: N:PCOMP-N:PREP,such as,such YX as,PREP:MOD:N • Such NP as NP: N:PCOMP-N:PREP,as,as,PREP:MOD:N, YX (such,PREDET:PRE:N) • NP including NP: N:OBJ:V,include,include,V:I:C,dummy YX node,dummy node,C:REL:N • NP , especially NP: -N:APPO:N,(especially,A:APPO- YX MOD:N) Clasiﬁcator • Intrare: o pereche ordonată de cuvinte • Ieșire: o decizie binară cu privire la faptul dacă substanvele sunt în legătură de hipernimie ori nu • Caracterisci: căi (trasee) pe care primul și ulmul cuvânt sunt înlocuite de categoria N (substanv) • Corpus: 6 milioane de fraze de șri – corpus parsat cu MINIPAR – sunt extrase toate perechile de substanve care apar în aceeași frază Clasiﬁcator – 752 311 perechi de substanve au fost echetate drept Cunoscut-ca-Hipernim sau Cunoscut-ca-Non- Hipernim folosind WN: • o pereche de substanve (n1, n2) este echetă Cunoscut-ca- Hipernim dacă n2 este un strămoș al primului sens al lui n1 în taxonomia de hipernimie din WN și dacă relația hypernym* din WN ține între primele sensuri ca substanve enumerate în WordNet (care reprezintă cele mai “frecvent ulizate" sensuri ale ﬁecărui cuvânt) • o pereche de substanve este echetată Cunoscut-ca-Non- Hipernim dacă ambele substanve sunt conținute în WN, dar niciunul dintre cuvinte nu este un strămoș al celuilalt în taxonomia hipernimică din WN pentru orice sens al ﬁecărui cuvânt Evaluarea paernurilor • Care dintre traseele de dependență (paernuri lexico-sintacce) se dovedesc a ﬁ caracterisci ule pentru clasiﬁcatori: – a fost construit câte un clasiﬁcator binar pentru ﬁecare paern: paernul este reprezentav pentru a clasiﬁca o pereche de substanve ca hipernime / hiponime dacă și numai dacă paernul respecv apare cel puțin o dată pentru o pereche de substance care se întâmplă să ﬁe în relația hipernim / hiponim, conform WN => printre multe altele, modelele găsite manual de Hearst au fost "redescoperite" Descoperirea de noi paernuri • Alte paernuri de scor mare: NP like NP: N:PCOMP-N:PREP,like,like,PREP:MOD:N YX NP called NP: N:DESC:V,call,call,V:VREL:N YX NP is a NP: N:S:VBE,be,be,-VBE:PRED:N XY NP, a NP (appositive): N:APPO:N XY Clasiﬁcarea hipernimelor după paernuri MINIPAR • hps://gate ac uk/releases/gate-7 0- build4195-ALL/doc/tao/splitch17 html Combinarea (fuziunea) de ontologii Fuziunea de ontologii – deﬁniție • Procesul de fuziune ontologică primește în intrare două (sau mai multe) ontologii sursă și returnează o ontologie care combină ontologiile sursă date Gerd Stumme, Alexander Maedche Ontology Merging for Federated Ontologies on the Semanc Web Abordări • Abordările se bazează pe eurisci de potrivire sintaccă și semancă care derivă din comportamentul inginerilor ontologi atunci când se confruntă cu sarcina de a îmbina ontologii, i e se simulează comportamentul uman • Tehnici stasce, care judecă similaritatea conceptelor și asemănarea brută a instanțelor, prin metrici de șiruri textuale și cunoșnțe de natură semancă Viziuni comune ori diferite asupra lumii, combinare Ontologie: deﬁniție formală • Deﬁniție: O ontologie (de bază) este un tuplu O: = (C; is a; R; σ), unde C este un set ale cărui elemente se numesc concepte, is a este o ordine parțială pe C (adică o relație binară is a ⊆ CC care este reﬂexivă, tranzivă și ansimetrică), R este un set ale cărui elemente sunt numite nume de relații (sau, pe scurt, relații), iar σ: R à C+ este o funcție care atribuie ﬁecărui nume de relație aritatea sa Cum se pot combina termenii? • Fiind dați doi termeni apropiați, câte unul din ﬁecare ontologie: – Cei doi termeni sunt echivalenți è ei pot ﬁ direct aliniați; Ax Ay m Ay AyAyAyAy1 Ay2 Ay3 1 2 3 Cum se pot combina termenii? • Fiind dați doi termeni, câte unul din ﬁecare ontologie: – Un termen este mai general decât celălalt è termenul mai speciﬁc (și toți subordonații, posibil și frații lui) pot ﬁ integrați sub termenul mai general; Ay Ay Ax 1 m Ax1 AyAyAy2 Ay3 2 3 AxAx 2 3 AxAx 2 3 Cum se pot combina termenii? • Fiind dați doi termeni, câte unul din ﬁecare ontologie: – Termenii sunt incompabili (i e , idenﬁcarea acestora ar cauza probleme de deﬁnire și relaționale între ceilalți termeni) - caz în care: (1) unul dintre termeni trebuie respins și nu trebuie încorporat, (2) unul dintre termeni și alții care depind de el trebuie să ﬁe redeﬁniți, (3) trebuie creată o "microteorie" separată, în care termenii și toți ceilalți termeni care depind de ea există în paralel (4) poate ﬁ încorporată o versiune mai slabă a termenului infracțional, fără deﬁnițiile sau relațiile care au cauzat inconsecvența Sugesi de eurisci de aliniere 1 Potriviri pe șiruri de litere, e g : – Potriviri ale numelor de concepte (cognate matching): nume suﬁcient de asemănătoare (în aceeași limbă) sunt dovezi că dezvoltatorii consideră conceptele similare – Potriviri în deﬁniții (prin procesare de text și măsuri de suprapuneri): deﬁniții similare în limbaj natural ar trebui ﬁe considerate, de asemenea, dovezi ale similarității conceptelor Sugesi de eurisci de aliniere 2 Potrivirile ierarhice exploatează structura de taxonomizare a ontologiilor Ele includ: – Filtrarea ambiguității prin superconcepte partajate: atunci când un concept poate ﬁ aliniat la mai multe alternave, se iau în considerare cele ale căror superconcepte sunt cumva aliniate la superconceptele conceptului țintă – Măsuri bazate pe distanțe semance (număr de legături) (v (Agirre et al , 1994)) Măsuri de aliniere • Potrivire de nume (cognate match): compară numele N1 și N2 ale două concepte – Consideră subșiruri descrescătoare ale lui N1, tăind din stânga Numele formate din cuvinte compuse sunt împărțite în cuvinte separate, se întoarce scorul maxim Numele mai mici de 3 litere sunt ignorate • NAMESCORE: = numărul de litere potrivite la pătrat + 20 de puncte dacă cuvintele sunt exact egale sau 10 puncte dacă cuvintele coincid la sfârșit Măsuri de aliniere: exemple de sugesi de potriviri de nume cu scoruri (alignval ‘|S@cuisine| ‘( (NAME M@LIMOUSINE 26) (NAME M@VINE 19) (NAME M@MORPHINE 19) (NAME M@ENGINE-GOVERNOR 19) (NAME M@BUSINESS-COVERAGE-OF 16) (NAME M@AGRIBUSINESS-ACTIVITY 16) (NAME M@TABLE-LINEN 9) (NAME M@TRAINER 9) 120 more )) (alignval ‘|S@Free World| ‘( (NAME M@PERCENT-OF-WORLD-POPULATION 46) (NAME M@WORLD 35) )) Măsuri de aliniere • Potriviri pe deﬁniții: compară deﬁnițiile în engleză D1 și D2 ale două concepte Mai întâi, ambele deﬁniții sunt separate in cuvinte separate (se îndepărtează apostroafele, limioarele de unire etc ) și toate cuvintele sunt lemazate – deﬁniția lui M@FOOD: ("any" "substance" "that" "can" "be" "metabolized" "organism" "give" "energy" "build" "ssue") – apoi, se calculează 3 valori: • strength = raportul dintre numărul de cuvinte care apar în ambele deﬁniții și numărul de cuvinte ale deﬁniției cele mai scurte, • reliability = numărul de cuvinte comune, • defscore = strength * reliability: • DEFSCORE := (Shared(D1,D2) / min{D1,D2})*Shared(D1,D2) Măsuri de aliniere: exemple de sugesi de potriviri de deﬁniții cu scoruri (strength, reliability, score): (alignval ‘|S@cuisine| ‘( (DEF M@KITCHEN (0 62 5 3 12)) (DEF M@CHEESE (0 62 5 3 12)) (DEF M@FOODSTUFF (0 62 5 3 12)) (DEF M@PET-FOOD (0 62 5 3 12)) (DEF M@CUTLERY (0 50 4 2 00)) (DEF M@RACETRACK ( 0 37 3 1 12)) (DEF M@COOK ( 0 40 2 0 80)) 5 more )) Măsuri de aliniere • Potrivire TAXONOMICĂ (între ontologiile SENSUS și MIKROKOSMOS): pentru un anumit concept SENSUS, colectează toate conceptele din MIKROKOSMOS care sunt "mai apropiate" de 10 link-uri de el Algoritmul traversează taxonomia atât în direcțiile superconcept cât și în subconcepte – Scorul de potrivire este dat de inversa link- distanței: – TAXSCORE := 1 / number-of-links Măsuri de aliniere: exemple de sugesi de potriviri de taxonomie cu scoruri (alignval ‘|S@end>come out| ‘((TAX M@SOCIAL-EVENT 0 17) (TAX M@EMANATE 0 17) (TAX M@EMIT-LIGHT 0 17) (TAX M@EMIT-SOUND 0 17) (TAX M@REFLECT-LIGHT 0 17) (TAX M@EXTRACT 0 17) (TAX M@APPLY-FORCE 0 20) (TAX M@PACK 0 20) 22 more )) Combinarea scorurilor • Caracteriscile formulelor de combinare: – să crească cu valori în creștere ale NAME, DEF și TAX – să normalizeze scorurile euriscilor – să diminueze tendința scorurilor NAME de a crește rapid – să atenuarea tendința scorurilor de TAXONOMIE de diminuare rapidă – să întoarcă un scor nenul dacă cel puțin o euriscă întoarce un scor nenul • SCORE := sqrt(NAMESCORE) * DEFSCORE * (10 * TAXSCORE) cu grija că dacă NAMESCORE sau DEFSCORE sunt zero, ele sunt înlocuite prin 1, și dacă TAXSCORE e 0, el e înlocuit prin 0 01 Uzual, scorurile de aliniere se plasează în scara 0 – 16 Generarea întrebărilor Generarea întrebărior (queson generaon – QG): un subdomeniu al IA • Generarea de întrebări mul-variante din ontologii (MCQG) – pentru evaluarea studenților – beneﬁcii pentru instructori: • sarcina de a construi manual MCQ pentru teste este greoaie și consumatoare de mp • este adesea diﬁcil să se dezvolte arcole MCQ de înaltă calitate – sisteme de MCQ care pleacă de la ontologii reușesc să genereze arcole MCQ • DAR: cât de bine slujest aceste artefacte procesului educațional? Generatorul de întrebări • Scopul întrebărilor: – evaluare, – revizuiri sau întrebări de studiu, – exercițiul de a pune întrebări, – întrebări de rezolvare a problemelor, – întrebări generale într-un domeniu speciﬁc, cum ar ﬁ turismul, – sau întrebări dintr-un domeniu deschis Sisteme de QG • Pe bază de sintaxă (unele dintre primele): – parser de limbaj natural folosit pentru a analiza sintaxa frazei și a idenﬁca componentele majore care pot ﬁ folosite pentru a forma o întrebare – dezavantaje: • propoziții sintacc ambigue (singura modalitate de a analiza corect asel de propoziții este de a înțelege semniﬁcația lor) • sistemul este dependent de limbă – avantaje: • este independent de domeniu, asel încât pentru a formula o întrebare în orice domeniu trebuie formulată o propoziție în limba naturală dată OG systems • Abordări bazate pe semancă - de obicei, dependente de domeniu: folosesc un model semanc al domeniului pentru a genera întrebări – OntAWare: • folosește o ontologie și generează întrebări bazate pe cunoașterea relațiilor dintre clasă-subclasă și dintre clasă- instanță • oferă, printre alte funcționalități pentru redactarea conținutului educațional, generarea semiautomacă a obiectelor de învățare, inclusiv întrebări • folosește relațiile de subsumare între clase pentru a genera întrebări, cum ar ﬁ: "Care dintre următoarele elemente este (sau nu este) un exemplu al conceptului, X?” Paernuri în generarea testelor Žitko B, Stankov S, Rosić M, Grubišić A (2009) Dynamic test generaon over ontology-based knowledge representaon in authoring shell Expert Systems with Applicaons 36:8185–8196 • Teste generate pe baza cunoșnțelor de domeniu exprimate în ontologii OWL: – un număr de șabloane deﬁnite pentru întrebări sunt ulizate de sistem pentru a genera elementele de testare Exemple de paernuri care generează teste Care dintre următoarele A elemente: shuﬄe(someOf(desc(B)), someOf(desc(siblingOf(B))) sunt B-uri? B C B1 B2 B3 C1 C2 Exemple de paernuri care generează teste Care dintre următoarele VP1 propietăți: B roperty P1 setOfProperesOf(B) p caracterizează random(descOf(B)) property P2 și care este valoare ei? B VP2B B1 B2 B3 VP2property P2 B2 